Loading...
机构名称:
¥ 1.0

本文对当前复制Openai的O1模型功能的方法进行了批判性检查,特别关注广泛但通常未公开的知识蒸馏技术的使用。虽然我们以前的工作(第1部分(Qin等人,2024))探讨了O1复制的基本技术途径,这项研究揭示了O1的API的简单蒸馏,并结合了监督的微调,可以在复杂的数学推理任务上实现卓越的性能。通过广泛的实验,我们表明,基本模型对数万个样本O1延伸的长期思考链的微调优于美国邀请赛数学考试(AIME),其技术复杂性最少。此外,我们的调查范围超出了数学推理,可以探索跨不同任务的O1延伸模型的概括能力:幻觉,安全性和开放域QA。值得注意的是,尽管仅对数学解决问题的数据进行了培训,但我们的模型证明了对开放式质量QA任务的强烈概括,并且在微调后变得明显降低了对无粘液的影响。我们故意将这一发现公开以促进AI研究中的透明度,并挑战该领域中晦涩的技术主张的当前趋势。这种教育的命令不仅代表了技术考虑因素,而且代表了一个基本的人类使命,它将影响AI创新的未来。1相关资源将在https://github.com/gair-nlp/o1-journey上找到。我们的工作包括:(1)蒸馏过程及其有效性的详细技术阐述,(2)一个全面的基准测试框架,用于评估和分类O1复制尝试,基于其技术透明度和可重复性,(3)对痛苦的限制和潜在的限制,我们对痛苦的限制和潜在的风险进行了关键的讨论:我们的分析:crcial crcial crucial:crucial clucial clucial clucial clucial clucial clucial clucial clucial culminates''''''系统很重要,以第一原则思维为基础的研究人员的发展至关重要。

arxiv:2411.16489v1 [cs.cl] 2024年11月25日

arxiv:2411.16489v1 [cs.cl] 2024年11月25日PDF文件第1页

arxiv:2411.16489v1 [cs.cl] 2024年11月25日PDF文件第2页

arxiv:2411.16489v1 [cs.cl] 2024年11月25日PDF文件第3页

arxiv:2411.16489v1 [cs.cl] 2024年11月25日PDF文件第4页

arxiv:2411.16489v1 [cs.cl] 2024年11月25日PDF文件第5页